News:

Want to get involved in developing SMF, then why not lend a hand on our github!

Main Menu

Ποια είναι τα συν και τα πλην του UTF-8;

Started by Nefeli, May 31, 2007, 04:54:24 AM

Previous topic - Next topic

Nefeli

Αναρωτιέμαι καιρό τώρα για τα πλεονεκτήματα και τα μειονεκτήματα της κωδικοποίησης UTF-8.

Η κωδικοποίηση windows-1253 που τρέχω στο φόρουμ και στο πόρταλ, λειτουργούν μια χαρά για τις ανάγκες μου όσον αφορά την "εμβέλεια" του site σε γλώσσες, ωστόσο υστερεί σημαντικά όταν περνάω κάποιες άλλες λειτουργίες με διαφορετικές κωδικοποιήσεις. Αν υπολογίσει κανείς και τις ιδιαιτερότητες των φυλλομετρητών ως προς αυτές, καταλαβαίνει εύκολα το κομφούζιο που δημιουργείται. Δεν είναι εύκολο, ούτε διασκεδαστικό, να χάνει κανείς ώρες επί ωρών για τις ρυθμίσεις και αυτές να είναι τελικά δυσλειτουργικές αφού δεν έχουν ένα "global" χαρακτήρα, αφού πρέπει να εξηγείς και σε κάθε χρήστη τι πρέπει να κάνει για να "βλέπει" τη κάθε λειτουργία.

Στο διαδίκτυο κυκλοφορούν διιστάμενες απόψεις. Η μία θέλει την utf-8 ως το μέλλον των κωδικοποιήσεων και η άλλη την απεύχεται, χωρίς να έχω καταλάβει τους λόγους.

Θα μπορούσα, θα μου πείτε, να δοκιμάσω στο φόρουμ τη μετατροπή σε utf-8, μια δοκιμή πείθει το καθένα.
Θα το έκανα αν δεν ήξερα πως είναι μια λειτουργία ΜΗ αντιστρέψιμη! (κάνω μήπως λάθος;)
Έτσι δεν το έχω τολμήσει ποτέ αν και υποψιάζομαι πως είναι ίσως η λύση στο πρόβλημά μου.

Χρειάζομαι λοιπόν περισσότερα "στοιχεία", υπέρ ή κατά, από τη δική σας εμπειρία με ή άνευ utf-8, ώστε να αποκτήσω επιτέλους κριτήριο για το αν θέλω να παραμείνω στην  windows-1253 ή να το γυρίσω στην utf-8.

Μπορείτε να με βοηθήσετε;

Nefeli

Διάβασα επίσης και το UTF-8 Readme όπως και το UTF-8 vs ISO, το οποίο βρήκα πολύ πολύ χρήσιμο.

Υπογραμμίζω μόνο τα εξής:

QuoteWhy would I need UTF-8? ....... If the software integrating with SMF uses UTF-8. In some cases such an integration can require character sets to match.
είναι το πιο ισχυρό μου κίνητρο. Ένα πρόβλημα που περιορίζεται είναι η αλήθεια στα μέλη που διαβάζουν με IE και όχι με Firefox.

QuoteΤο μειονέκτημα είναι ότι θα σου πιάνει (σχεδόν) διπλάσιο χώρο, γιατί η κωδικοποίηση ενός όχι λατινικού χαρακτήρα (πχ. ελληνικά, κινέζικα, κτλ.) θα πιάνει 2 bytes, αντί για 1 στην περίπτωση του ISO-8859-7. Διπλάσιος χώρος και στο αρχείο μηνυμάτων και στη βάση και στο output (άρα περισσότερο bandwidth).


Η ερώτησή μου λοιπόν διαμορφώνεται ως εξής:

Όταν λέμε διπλάσιος χώρος, μικρότερη ταχύτητα, ακριβολογούμε ή είναι μόνο μια έκφραση;

Κι αν είναι απλή έκφραση, για ποιες διαφοροποιήσεις μεγεθών σε αναλογία μιλάμε;

Το "διπλάσιο" πχ αφορά στο σύνολο των δεδομένων του site; Από 50 θα γίνει 100;;;;;

Κι αν δεν περάσω εγώ παρά τα Ελληνικά, Αγγλικά, Γαλλικά άντε και Γερμανικά, θα έχω το ίδιο ακριβώς αποτέλεσμα στην αύξηση του μεγέθους;;;;  ::)

agridoc

QuoteΗ κωδικοποίηση windows-1253 που τρέχω στο φόρουμ και στο πόρταλ, λειτουργούν μια χαρά για τις ανάγκες μου όσον αφορά την "εμβέλεια" του site σε γλώσσες, ωστόσο υστερεί σημαντικά όταν περνάω κάποιες άλλες λειτουργίες με διαφορετικές κωδικοποιήσεις. Αν υπολογίσει κανείς και τις ιδιαιτερότητες των φυλλομετρητών ως προς αυτές, καταλαβαίνει εύκολα το κομφούζιο που δημιουργείται. Δεν είναι εύκολο, ούτε διασκεδαστικό, να χάνει κανείς ώρες επί ωρών για τις ρυθμίσεις και αυτές να είναι τελικά δυσλειτουργικές αφού δεν έχουν ένα "global" χαρακτήρα, αφού πρέπει να εξηγείς και σε κάθε χρήστη τι πρέπει να κάνει για να "βλέπει" τη κάθε λειτουργία.

Nefeli δεν κατάλαβα τι ακριβώς εννοείς, ιδιαίτερα το
Quoteαφού πρέπει να εξηγείς και σε κάθε χρήστη τι πρέπει να κάνει για να "βλέπει" τη κάθε λειτουργία
  For Greek aeromodellers and our friends around the world  - Greek Button sets for SMF - Greeklish to Greek mod
Δeν αφιερώνω χρόνο για μηνύματα σε greeklish.

Nefeli

Στις εικόνες που επισυνάπτω αν προσέξεις φαίνονται οι διαφορές στις περιοχές του μενού και των ονομάτων των κατηγοριών αφ ενός και στη περιοχή του σουτμποξ από την άλλη, στους δύο  βασικούς φυλλομετρητές (έχω το σηματάκι του καθενός για να ξεχωρίζει).

Αν φτιάξω τη κωδικοποίηση του coppermine σε greek ISO 8859-7 αντί του utf-8 που είναι η προεπιλογή και σε "συμφωνία" με το smf και tiny, παίρνω το σουτμποξ σε ελληνικά αλλά όλο το πάνελ του coppermine σε τρέχα γύρευε σύμβολα!

Το πρόβλημα όμως δεν σταματάει εκεί. Η λύση του να βγάλω τελείως το σουτμποξ από τη κεντρική του coppermine είναι μια κουτσή λύση μια που όταν πάω να μεταφέρω δεδομένα από το coppermine στα blocks της κεντρικής σελίδας του tiny, (για παράδειγμα τα ονόματα ή τις κατηγορίες των εικόνων) αυτά φαίνονται τελείως ακαταλαβίστικα!

Όσον αφορά στην ερώτηση σου Agridoc :

QuoteNefeli δεν κατάλαβα τι ακριβώς εννοείς, ιδιαίτερα το
Quote
αφού πρέπει να εξηγείς και σε κάθε χρήστη τι πρέπει να κάνει για να "βλέπει" τη κάθε λειτουργία

Εννοώ πως στη περίπτωση πχ του ΙΕ, μπορεί κανείς να κάνει δεξί κλικ μέσα στο πλαίσιο του σουτμποξ, και να πάρει τα Ελληνικά ως αποτέλεσμα μιας "τοπικής" αλλαγής κωδικοποίησης. Αυτό όμως ισχύει μέχρι την επόμενη ανανέωση της σελίδας.

Είναι λοιπόν απαραίτητο να τρέχουν τα πάντα σε κοινή κωδικοποίηση. Αλλιώς τα προβλήματα είναι πάρα πολλά. Το πρόβλημα μου είναι αν πρέπει να διαλέξω όλα ISO ή UTF-8. Έχω και εγώ συγχιστεί πολύ με όλη την ιστορία.

Όπως και να έχει, θέλω να καταλάβω σε βάθος τη κατάσταση μια που οτιδήποτε άλλο μου φαίνεται σαν τα "σκουπίδια μου κάτω από το χαλί" :) ή αλλιώς στρουθοκαμηλισμός.

Προσθήκη:
Δεν μπορώ να υποχρεώσω κανένα να τρέχει μόνο Firefox κι ακόμη, δεν έχω τους υπόλοιπους φυλλομετρητές για να ελέγξω το εκεί αποτέλεσμα!

agridoc

QuoteΕίναι λοιπόν απαραίτητο να τρέχουν τα πάντα σε κοινή κωδικοποίηση.
Σωστό σαν βάση, όχι απαραίτητο πάντοτε.

Ολα είναι θέμα προγραμματισμού και όλα εξελίσσονται. Ενα πρόγραμμα που απευθύνεται παγκόσμια πρέπει να έχει λύσεις για όλες τις κωδικοποιήσεις αλλά και τα συστήματα γραφής (υπάρχει και το από δεξιά προς αριστερά). Αυτό όμως δεν συμβαίνει πάντα. Ο κώδικας έχει λάθη ή παραλείψεις ή ακόμα και πλεονάζοντα στοιχεία κώδικα που δημιουργούν προβλήματα ή περιορισμούς κατά περίπτωση.

Εχω δώσει αλλού την παρακάτω απάντηση
Αναλόγως τι θέλει να κάνει κανείς.

Για ελληνικά συγχρόνως με γλώσσες που έχουν λατινικό αλφάβητο ISO 8859-7 ή Windows-1253. Αν κάποιος θέλει συγχρόνως και μια άλλη γλώσσα με άλλο, μη λατινικό αλφάβητο (π.χ. κυριλλικό) και πολλά μηνύματα UTF-8.

Με τo ISO 8859-7 το database θα είναι μικρότερο και εφ' όσον και στο PC μου έχω Windows-1253 με βολεύει για την επεξεργασία HTML, PHP και άλλων αρχείων.

Θα επικρατήσει το UTF-8; Νομίζω οτι έχει πια καθιερωθεί αλλά αμφιβάλλω αν θα καταφέρει να επικρατήσει. Ο κυριότερος λόγος είναι τα εκατομμύρια των PC που λειτουργούν σ' όλο τον κόσμο με τοπικό codepage και η αγοραστική τους δύναμη όπως και οι απαιτήσεις τους για την χρήση των υπολογιστών τους.

Τα προγράμματα προσαρμόζονται ανάλογα με τις απαιτήσεις μας. Για να πουλήσουν σε χώρες με τοπικό codepage πρέπει να λειτουργούν και με αυτό.

Γενικά: Ελληνικό codepage.
Γιατί: Γιατί έτσι με βολεύει καλύτερα.
Μα θεωρητικά δεν είναι το πιο σωστό: Σκασίλα μου, εφ' όσον λειτουργεί εντάξει.



Οσον αφορά το μέγεθος της βάσης, αν ο κύριος όγκος είναι στα Ελληνικά είναι σημαντική η διαφορά, αν είναι στα Αγγλικά όχι.
  For Greek aeromodellers and our friends around the world  - Greek Button sets for SMF - Greeklish to Greek mod
Δeν αφιερώνω χρόνο για μηνύματα σε greeklish.

Greek

Ας πω κι εγώ στα γρήγορα την γνώμη μου μιας και τρέχω σελίδες με ISO-8859-7 και UTF-8 .
Αν υπάρχει δικαίωμα επιλογής ανάμεσα σ' αυτά τα 2, επέλεξε ISO-8859-7.

Το UTF-8 μπορεί να θεωρείται και να είναι πιο «οικουμενικό» δημιουργεί όμως και αρκετά προβλήματα. Ένα γνωστό πρόβλημα σε σχέση με τα ελληνικά (το οποίο αντιμετωπίζω κι εγώ) είναι το email.

Γενικά, όπως είπε και ο agridoc αν η σελίδα δεν χρησιμοποιεί διαφορετικές γλώσσες, δεν υπάρχει κανένας απολύτως λόγος να βάλει κάποιος UTF-8.

Το ISO-8859-7 κάνει μια χαρά την δουλειά του.

Nefeli

Σ ευχαριστώ για την απάντηση. Κάλυψες τα ερωτηματικά μου κι ακόμα περισσότερα, αφού μου έδειξες καινούργιες διαστάσεις του όλου θέματος.

QuoteΘα επικρατήσει το UTF-8; Νομίζω οτι έχει πια καθιερωθεί αλλά αμφιβάλλω αν θα καταφέρει να επικρατήσει. Ο κυριότερος λόγος είναι τα εκατομμύρια των PC που λειτουργούν σ' όλο τον κόσμο με τοπικό codepage και η αγοραστική τους δύναμη όπως και οι απαιτήσεις τους για την χρήση των υπολογιστών τους.
Ομολογώ πως δεν κατάλαβα πλήρως, υποψιάζομαι μόνο, τη διαδικασία. Αν έχεις χρόνο, όποτε έχεις χρόνο, μου εξηγείς περισσότερο αν θες.

QuoteΤα προγράμματα προσαρμόζονται ανάλογα με τις απαιτήσεις μας. Για να πουλήσουν σε χώρες με τοπικό codepage πρέπει να λειτουργούν και με αυτό.
Συμφωνώ και επαυξάνω!!!!!!!!!!! Έχω κουραστεί να είμαι το εξωτικό γλωσσικό φρούτο μιας τίμιας πλην μικρής καταναλωτικής αγοράς και ως εκ τούτου μη υπολογήσιμης. Τα προγράμματα οφείλουν να προσαρμόζονται. Ιδίως όταν τα πληρώνουμε.

Ωστόσο, υπάρχουν και άλλοι δύο σημαντικοί παράγοντες που έχουν να κάνουν με:

1. Μιλάμε όχι μόνο για τους μεγιστάνες των λογισμικών αλλά και για το ανοιχτό και ελεύθερο , πράγμα που σημαίνει πως εκεί όχι μόνο οι ρόλοι άρα και τα "καταναλωτικά δικαιώματα" είναι συγκεχυμένα. Αλλά εξαρτάται κι από εμάς, τους χρήστες, να προωθούμε λύσεις μέσα από συσσωματώματα όπως καλή ώρα του φόρουμ του smf. Και εκεί αξίζουν συγχαρητήρια σε όλους εσάς που συμβάλλετε σε αυτό, και

2.  Αν κάτι με γοητεύει στο διαδίκτυο, είναι αυτή ακριβώς η εν δυνάμει δυνατότητα επικοινωνίας με διαφορετικές κουλτούρες, γλώσσες και ανθρώπους. Αυτό είναι κάτι που μόνο κάτι σαν το utf μπορεί να υποστηρίξει "ιδεολογικά" και "τεχνικά". Άρα ως τέτοιο, μήπως θα έπρεπε, λέω εγώ τώρα κι εσείς ανακόψτε μου τη φόρα, να υποστηριχθεί περισσότερο, ιδίως από γλώσσες ήσσονος εμπορικής εμβέλειας όπως η δική μας; Δεν θα μπορούσε πχ να βρεθεί τρόπος στο άμεσο μέλλον, να μειωθούν τα μειονεκτήματα του χώρου και της ταχύτητας που απαιτεί; 

Μάλλον ξέφυγα πάλι, ή μήπως όχι;  :)


Nefeli

Quote from: Greek on May 31, 2007, 05:48:31 PM
Ας πω κι εγώ στα γρήγορα την γνώμη μου μιας και τρέχω σελίδες με ISO-8859-7 και UTF-8 .
Αν υπάρχει δικαίωμα επιλογής ανάμεσα σ' αυτά τα 2, επέλεξε ISO-8859-7.

Το UTF-8 μπορεί να θεωρείται και να είναι πιο «οικουμενικό» δημιουργεί όμως και αρκετά προβλήματα. Ένα γνωστό πρόβλημα σε σχέση με τα ελληνικά (το οποίο αντιμετωπίζω κι εγώ) είναι το email.

Γενικά, όπως είπε και ο agridoc αν η σελίδα δεν χρησιμοποιεί διαφορετικές γλώσσες, δεν υπάρχει κανένας απολύτως λόγος να βάλει κάποιος UTF-8.

Το ISO-8859-7 κάνει μια χαρά την δουλειά του.


Γεια σου Greek, καιρό είχα να σε δω  :) . Δεν είδα την απάντησή σου πριν δημοσιεύσω το προηγούμενο!
Με την ευκαιρία να πω πως και ο agridoc με έπεισε για τη χρησιμοποίηση του ISO.
Το συζητάω όμως ..... εγκυκλοπαιδικά ακόμα μια που, όπως καταλαβαίνεις από τις διατυπώσεις μου, το ζήτημα πλέον δεν είναι οι "μερικές" και "τοπικές" λύσεις. Αυτές πες πως τις έχουμε .... :)

agridoc

Nefeli το UTF-8 είναι ένα σύστημα κωδικοποίησης χαρακτήρων, δεν είναι κοσμοθεωρία ούτε κόμμα να ενταχθεί κάποιος.

Το οτι δεν το επιλέγω, όπου νομίζω οτι δεν χρειάζεται, δεν σημαίνει οτι δεν αναγνωρίζω την προσφορά ή και την αναγκαιότητα του σε κάποιες περιπτώσεις.

Το λειτουργικό στο PC σου, όπως και στο δικό μου και των περισσοτέρων τρέχει σε windows-1253 και αυτό δεν μας στερεί την δυνατότητα να επικοινωνούμε με όλο τον κόσμο.

Παρ' ότι δεν επιλέγω UTF-8 για το site μου έχω κάνει πολλά test install και δοκιμές σε UTF-8 για να στηρίξω τον spiros και τα ελληνικά στην προσπάθεια του για την σωστή ανάπτυξη του SMF στον τομέα αυτό, όπως και τον Bloc, πολύ περισσότερο, για την ανάπτυξη των πολυγλωσσικών ικανοτήτων του Tiny Portal.

Για το CPG είχα γράψει πριν 6 μήνες
http://coppermine-gallery.net/forum/index.php?topic=37919.msg185511#msg185511
QuoteI didn't write that I am getting started in UTF-8, I wrote that UTF-8 is not desired. I have my reasons, and it is my choice. I would definitely recommend UTF-8 for other cases but not this one. UTF-8 is not always better, it has it's pros and cons. CPG seems to run it's support forum in ISO-8859-1 and I believe it' s the right choice, unless you create language specific support boards for non latin characters languages (and it needs a good percentage of messages in these languages to be beneficial). I am not arguing for or against UTF-8, I just believe that software should be flexible enough to let the user select the best choice for a specific use.

I believe that software developers should take care of the needs and choices of possible users. UTF-8 can be proposed and promoted by arguments, there are also other arguments against but it shouldn't and can't be forced on.

CPG is excellent software and should not loose language flexibility. Version 1.4x seems to work quite well with other languages and codepages and a latin-1 database, except the search problem. I think it could be overcomed, it's a matter of will for the team.

Εκεί πείραξα λίγο το πρόγραμμα για να δουλεύει σωστά με μη UTF-8 ελληνικά.

Συνοπτικά: Το λογισμικό πρέπει να είναι αρκετά ευέλικτο, ώστε να επιτρέπει σ' αυτόν που το χρησιμοποιεί να κάνει την καλύτερη επιλογή για μια συγκεκριμένη χρήση.

Οπωσδήποτε αυτό απαιτεί περισσότερη δουλειά στην ανάπτυξη και την εξέλιξη ενός λογισμικού.
  For Greek aeromodellers and our friends around the world  - Greek Button sets for SMF - Greeklish to Greek mod
Δeν αφιερώνω χρόνο για μηνύματα σε greeklish.

Nefeli

Quote from: agridoc on June 01, 2007, 12:57:44 AM
Nefeli το UTF-8 είναι ένα σύστημα κωδικοποίησης χαρακτήρων, δεν είναι κοσμοθεωρία ούτε κόμμα να ενταχθεί κάποιος.

Ποτέ δεν ισχυρίστηκα κάτι τέτοιο. Αν το έλεγα, μάλλον θα υποτιμούσα τις κοσμοθεωρίες και θα υπερτιμούσα ίσως τα ... κόμματα. :)
Μίλησα για λειτουργία, για το τρόπο τελικά να είναι κάποιος συλλογικός, για μια, τελικά, στάση ζωής.
Δεν έκανα κήρυγμα. 

Αλλά τέλος πάντων .... μάλλον έχω ξε-φύγει.  :)

Greek

Μια και ανοίχτηκε αυτό το θέμα ας κάνω μια ερώτηση, για την οποία θα ήθελα υπεύθυνη απάντηση.

Δημιουργώ μια σελίδα με βασική γλώσσα τα ελληνικά και δευτερεύουσες τα αγγλικά και τα γερμανικά.

Ξέρω ότι το iso-8859-7 με καλύπτει όσον αφορά τα αγγλικά. Με τα γερμανικά όμως;
Αν τα βάλω κι αυτά με iso-8859-7 ενδέχεται κάποιοι ειδικοί χαρακτήρες όπως το γερμανικό «παχύ» σίγμα β ή τα τονιζόμενα φωνήεντα να μου βγουν κινέζικα;

Θέλω να πετάξω το utf-8 γιατί το πρόβλημα με το e-mail είναι σοβαρό και δεν μπορώ να κάνω κάτι από την πλευρά μου.
Για να γίνω πιο συγκεκριμένος, π.χ. το yahoo.gr (και τα περισσότερα ελληνικά  web based emails υποθέτω) λειτουργεί με iso-8859-7, με αποτέλεσμα οι ελληνικοί χαρακτήρες να εμφανίζονται κινέζικοι.

agridoc

  For Greek aeromodellers and our friends around the world  - Greek Button sets for SMF - Greeklish to Greek mod
Δeν αφιερώνω χρόνο για μηνύματα σε greeklish.

Greek

Όχι.
Είναι ανεξάρτητο script και δεν σχετίζεται με το SMF. Λειτουργεί όμως πάνω κάτω στην ίδια βάση.
Δηλαδή, εγγραφές μελών, χρήση βάσης δεδομένων (δική του. Όχι του SMF), προσωπικά μηνύματα και ειδοποιήσεις κ.α.

agridoc

Είμαστε λίγο εκτός θέματος, οσον αφορά το SMF.

Μιλάμε για ένα νέο σύστημα με διαχείριση βάσης. Οι τρόποι προσέγγισης είναι πολλοί.

Στο SMF, όταν η κωδικοποίηση δεν είναι UTF-8 αποθηκεύει τους χαρακτήρες με ένα byte και τους ειδικούς χαρακτήρες με entities. Ετσι μπορείς να έχεις τις γλώσσες που θέλεις και περιστασιακά και άλλες γλώσσες.

Δες και εδώ Multilingual in SMF 1.1RC2 without UTF.

Στο email εκτός από το πρόγραμμα υπάρχουν ιδιαιτερότητες του συστήματος του server και του email client.
  For Greek aeromodellers and our friends around the world  - Greek Button sets for SMF - Greeklish to Greek mod
Δeν αφιερώνω χρόνο για μηνύματα σε greeklish.

Greek

Ευχαριστώ για την απάντηση.
Ναι, κατά κάποιον τρόπο είμαι εκτός θέματος. Από την άλλη το θέμα «κωδικοποίηση χαρακτήρων» όμως υπερβαίνει το όποιο script.  ;)
Εντελώς πληροφοριακά πάντως, το δοκίμασα και είναι εφικτό να ενταχθεί και η γερμανική γλώσσα στο iso-8859-7.
Από την άλλη, το πρόβλημα με τα «κινέζικα» emails παραμένει, οπότε (και) κάπου αλλού βρίσκεται το πρόβλημα.
Κλείνω το off topic εδώ  :)

GoofyX

Ξαναεπιμένω σε αυτά που έγραψα σε μήνυμά μου (τμήμα του οποίου παραθέτει η Nefeli εδώ) σε παλιότερο θέμα. Το UTF-8 είναι το μέλλον. Αυτό που αναφέρει ο agridoc για την τοπική κωδικοποίηση και τη μη χρήση UTF-8 είναι άτοπο. Το UTF-8 δε σου κόβει την «τοπική κωδικοποίηση», ίσα-ίσα, σου δίνει τη δυνατότητα να γράψεις σε αγγλικά, γερμανικά, τούρκικα, κινέζικα, ελληνικά, κτλ. Τι καλύτερο από αυτό δηλαδή; Έχεις όλες τις γλώσσες με τη μία.

Τα μειονεκτήματα είναι: διπλάσιος χώρος για τις γλώσσες με μη λατινικό αλφάβητο (πχ. ελληνικά, κινέζικα, κτλ. το «τρία» σε iso8859-7 θα πιάσει 4 bytes, σε UTF-8 8 bytes, αλλά το «smf» θα πιάσει 3 bytes είτε σε iso8859-*, είτε σε UTF-8, εξ' ου και το «σχεδόν διπλάσιος χώρος») και ελαφρώς μειωμένη ταχύτητα επεξεργασίας, εφόσον το σύστημα έχει να επεξεργαστεί τα διπλάσια bytes. Κατά τη γνώμη μου, αυτά είναι ελάχιστα μπροστά στα θετικά του UTF-8, εφόσον η ταχύτητα επεξεργασίας και ο χώρος πλέον εδώ και αρκετά χρόνια πλέον δεν είναι σημαντικό πρόβλημα.

Σε ένα φόρουμ SMF που πρόσφατα έστησα, που θα υποστηρίζει ελληνικά (κατά βάση), το έβαλα εξ' αρχής σε UTF-8 για να γλυτώσω από διάφορα προβλήματα κωδικοποιήσεων, κτλ. Μόνο και μόνο για διαχειριστικούς λόγους, επιλέγω UTF-8 (αρκεί να είναι και η εφαρμογή γραμμένη σωστά).

Από εκεί και πέρα, όπως βολεύεται κανείς. Αν θέλει διγλωσσία (ή και μία γλώσσα μόνο), τότε τα 1-byte συστήματα κωδικοποίησης είναι οκ, αλλιώς UTF-8.
... Morpheus: What is "real"? How do you define "real"? If you 're talking about what you can feel, what you can smell, what you can taste and see, then "real" is simply electrical signals interpreted by your brain...

agridoc

Δεν έγραψα πουθενά ότι "UTF-8 σου κόβει την «τοπική κωδικοποίηση»".

Τρέχει κανένας από σας το PC του σε UTF-8? Οι φίλοι σας;

Ξεκινάω λοιπόν σαν βάση με την κωδικοποίηση που έχω στον υπολογιστή μου και επικρατεί στην χώρα μου.

Η λογική ερώτηση λοιπόν είναι αυτό που γράφεται στα Docs του SMF
Why would I need UTF-8?
Για τι θα μπορούσε να χρειαστώ UTF-8;

Επιχειρήματα υπάρχουν, υπέρ και κατά υπάρχουν και για τις δύο λύσεις.

Επιλέγω κατά περίπτωση, ανάλογα με την χρήση και τον σκοπό. Δεν διαλέγω τζιπ, αν κινούμαι πάντα στην άσφαλτο, είναι φιγούρα και περιττά έξοδα (και όχι τόσο γρήγορο  8) ). Αν σκοπεύω όμως να πιάνω τα βουνά και τα χωράφια το χρειάζομαι για να μην κολλήσω και με μαζεύουν απ' τα κατσάβραχα.

Και κάτι ακόμα. Η μετατροπή σε UTF-8 είναι εφικτή και βελτιώνεται στις λεπτομέρειες, το αντίθετο συζητήσιμο.
  For Greek aeromodellers and our friends around the world  - Greek Button sets for SMF - Greeklish to Greek mod
Δeν αφιερώνω χρόνο για μηνύματα σε greeklish.

GoofyX

Ναι, απλά αναφέρεις παραπάνω στο σχόλιο #4,
QuoteΘα επικρατήσει το UTF-8; Νομίζω οτι έχει πια καθιερωθεί αλλά αμφιβάλλω αν θα καταφέρει να επικρατήσει. Ο κυριότερος λόγος είναι τα εκατομμύρια των PC που λειτουργούν σ' όλο τον κόσμο με τοπικό codepage και η αγοραστική τους δύναμη όπως και οι απαιτήσεις τους για την χρήση των υπολογιστών τους.
που ίσως αφήνει να παρερμηνευτεί... Κατά βάση, στα θετικά και αρνητικά δε διαφωνούμε, οπότε κανένα πρόβλημα. :)

Και ναι, στο Linux μου έχω UTF-8 παντού. Οι περισσότερες διανομές (από όσο γνωρίζω) είναι UTF-8. Και το windows-1253 δεν είναι στάνταρ (το iso-8859-7 είναι), είναι αυτό που καθιέρωσε η Microsoft για τα Windows μόνο και μόνο για να φαίνεται διαφορετική από τους υπόλοιπους (ενώ υπήρχε το iso τότε) και ότι έχει κάνει δουλειά.

Όπως λες κι εσύ, η μετατροπή σε UTF-8 από 1-byte σύστημα είναι εύκολη. Και το ανάποδο γίνεται, αλλά υπό προϋποθέσεις.

Αυτά. :)
... Morpheus: What is "real"? How do you define "real"? If you 're talking about what you can feel, what you can smell, what you can taste and see, then "real" is simply electrical signals interpreted by your brain...

sem27gr

Έχω την εξής ερώτηση, εγώ έχω utf8 database, το forum μου λειτουργεί κανονικά με τα greek-utf8, τι θα γίνει αν κάποιος χρήστης χρησιμοποιήσει τα απλά english? Εν το μεταξύ έχω 3 γλώσσες στο φόρουμ
English, English-utf8 και greek-utf8...

spiros

Πρόσφατα έγινε μετατροπή σε UTF-8 στο δικό μου φόρουμ και θα εν ευθέτω χρόνο θα δημοσιευτεί και κείμενο για τη διαδικασία (η οποία στην περίπτωσή μου ήταν περίπλοκη καθώς υπήρχε και εγκατεστημένο coppermine στην ίδια βάση δεδομένων με διαφορετικά προβλήματα κωδικοποίησης).

Μερικές παρατηρήσεις: το μέγεθος της βάσης μειώθηκε ελαφρά (καθώς έγινε μετατροπή των οντοτήτων).

Πρόβλημα υπήρξε με το Ά (α κεφαλαίο τονούμενο) το οποίο μετά τη μετατροπή βγήκε ως απόστροφος. Για αυτό το ζήτημα ετοιμάζεται σκριπτ για να διορθωθεί.

Η αναζήτηση βελτιώθηκε σημαντικά.

Δείτε το εδώ: http://www.translatum.gr/forum/index.php

Από το αρχικό μήνυμα στο internationalization board:

I want to convert my forum to UTF-8 which is now in Windows-1253 and in the past when I tried there have been problems.

In the actual database Greek appears like this:
ÕðïøéÜæåôáé êÜðïéïò ðùò ç ãõíáßêá ôïõ ôïí áðáôÜ

And of course there are instances of html entities which should also be correctly converted.
& #916;& #949;& #957; & #956;& #960;& #959;& #961;& #949;& #943; & #960;& #945;& #961;& #940; & #957;& #945; & #941;& #967;& #949;& #953;

When I save a MySQL dump and try to open the file with Word, in order to appear "correctly" (meaning to display Greek as seen above), I have to select UTF-8 as encoding.

The tables' collation is latin1_swedish_ci and in the same database I have coppermine installed (as UTF-8) and html and page source displays fine, although in phpmyadmin Greek appears like this:     
Είναι ένα πλασÏ,,ικό μποÏ...κάλÎ.


Και το τελευταίο μήνυμα με το πρόβλημα του Ά:

One side-effect of the conversion: the Greek capital character Α was not converted correctly. Instead it appeared as ʼ.

For example, instead of
Άλλωστε

We got
ʼλλωστε
http://www.translatum.gr/forum/index.php/topic,8751.msg65229.html#msg65229
It looks the same on the database.


This is a problem with Greek codepages and the way they represent Greek A (Windows-1253 and ISO-8859-7)
http://www.cs.tut.fi/~jkorpela/unicode/greek.html#Alpha-tonos

Advertisement: